Видео с ютуба Cost-Per-Inference Optimization
AI Inference: The Secret to AI's Superpowers
Освоение оптимизации вывода LLM: от теории до экономически эффективного внедрения: Марк Мойу
Faster LLMs: Accelerate Inference with Speculative Decoding
AI Engineering Insights from Chip Huyen’s Book | Chapter 9: Inference Optimization
Почему делать логические выводы сложно...
Deep Dive: Optimizing LLM inference
What is vLLM? Efficient AI Inference for Large Language Models
Exploring the Latency/Throughput & Cost Space for LLM Inference // Timothée Lacroix // CTO Mistral
43 - LLM Inference Optimization
Лекция по оптимизации ИИ 01 — Предварительное заполнение против декодирования — Освоение методов ...
Optimizing Inference Costs with Open Research
AWS re:Invent 2025 - Autodesk's ML Inference Optimization: Leveraging AWS AI Chips (SPS201)
Piotr Wojciechowski: Inference optimization techniques
Золотой треугольник оптимизации вывода: баланс между задержкой, пропускной способностью и качеством.
AWS re:Invent 2024 - Faster, cheaper, better: Optimizing inference for production AI (AIM248)
Углубленный анализ оптимизации вывода для программ магистратуры с участием Филипа Кили.
Оптимизация вывода LLM №2: тензорный, экспертный и экспертный параллелизм (TP, DP, EP, MoE)
Tri Dao: Конец доминирования Nvidia, почему снизилась стоимость вывода и следующий десятикратный ...
Квантование против обрезки против дистилляции: оптимизация нейронных сетей для вывода
[AUTOML23] Cost-Effective Hyperparameter Optimization for Large Language Model Generation Inference